2019年度(第27回~)
第28回(2019/5/28)
論文紹介(担当:原田)
- Rubin and Waterman (2006) “Estimating the Causal Effects of Marketing Interventions Using Propensity Score Methodology” [論文リンク]
要旨
因果関係を評価するためのツールとして傾向スコアが提案されて以来、経済学、疫学、教育学などの無作為実験を実施するのが難しい分野への傾向スコアを用いた解析の例は数多くある。一方で、マーケティング政策(広告、宣伝など)を評価することへの適用はほとんどない。本論文では、製薬会社のセールス派遣についての実例を示しながら傾向スコア法の応用方法を解説している。
統計学勉強会(担当:澤谷)
- “空間分析の方法”
要旨
計量経済学・地球統計学・疫学・犯罪捜査・災害科学など幅広い分野で研究・応用される地理空間情報データ解析の基礎的な手法に関して実例と共に解説し、その全体像の把握を目指す。
第27回(2019/5/21)
研究発表(担当:酒井)
- “レビューデータを用いたトピックモデルによる利用ホテル・利用場面・評判要因の同時分析”
要旨
推薦アルゴリズムの一つに、様々な有名サービスで利用されている協調フィルタリングがある。高い精度を誇る協調フィルタリングであるが、推薦理由を付与できないという欠点があり、この改善が望まれている。本研究では、トピックモデルを拡張したモデル「Scene joint topic model(仮)」を提案し、レビューデータに用いることで、協調フィルタリングによる推薦に推薦理由を付与することを試みる。また同時に消費者の、サービス利用場面についての情報をモデルに組み込むことで、利用場面毎の嗜好の違いを明らかにする。
研究発表(担当:横山)
- “卒論概要ー女性や高齢者の社会進出が税収に与える効果ー”[資料]
要旨
下敷論文「人口構造の変化に伴う社会保険料給付増加が将来の所得税の課税ベースに与える影響―マイクロ・シミュレーションの手法を用いた将来推計―」を踏まえ、女性や高齢者の労働がどのような経済効果をもたらし、税収に影響を与えるのかを明らかにする。
2018年度(第0回~第26回)
第26回(2019/3/15)
統計学勉強会(担当:富田)
- “変分ベイズ推定” [資料]
要旨
統計モデルのパラメータ推定方法である変分ベイズ推定を紹介する。変分ベイズ推定はギブスサンプリングとは対照的に決定論的で近似アルゴリズムであるが、計算コストの低さからLDAでも用いられることがある。今回は、変分ベイズ推定のLDAに対する基本的な適用方法を紹介する。
統計学勉強会(担当:原田)
- “多重代入法を用いた欠測データ処理” [資料]
要旨
欠測データは分析結果の偏りやデータ資源のロスなどの問題を引き起こす。これらの問題に対処する方法として、伝統的には平均値代入法や回帰代入法などの単一代入法が用いられてきた。これらの方法は測定に伴う不確実性を考慮していないため、例えば分散などを過小推定してしまうという問題がある。多重代入法は、欠損値を代入したデータセットを複数作成し、その結果を統合することで不確実性を考慮しながら欠測データのパラメータ推測を行う手法である。本発表では多重代入法の概要と多重代入法を用いた回帰分析をRで行う方法を紹介する。
第25回(2019/2/22)
統計学勉強会(担当:五十嵐)
- “Metropolis-HastingsアルゴリズムとLDAへの応用” [資料]
要旨
一般に、統計モデルのベイズ推定法として、Metropoli-Hastings (MH) アルゴリズムを用いたMarkov chain Monte Carlo (MCMC) 法がある。これは、完全条件付き事後分布が導出できないモデルであっても、サンプリングが容易な任意の提案分布を使って事後分布を近似することが出来るため、汎用性が高い。これをLDAを始めとするトピックモデルに応用することで、共役な事前分布という制約をなくしたモデル設計が可能となる。本発表では、MHアルゴリズムと単純なLDAに応用した例を紹介する。
第24回(2019/2/8)
機械学習勉強会(担当:五十嵐)
- “粒子フィルタとLDAへの応用(理論編)” [資料]
要旨
Latent Dirichlet Allocation (LDA) の一般的な推定法として、周辺化ギブスサンプリングや変分ベイズ、変分EMアルゴリズムなどが良く用いられるが、これらの手法は、全ての文書に対して複数回のサンプリングや最適化を繰り返す必要がある。しかし、メモリに乗らないほどの巨大な文書データや時々刻々と増え続けるデータに対しては、これらの手法では限界がある。一方で、一般的な非線形非正規状態空間モデルの推定法として粒子フィルタ(逐次モンテカルロ法ともいう)と呼ばれる手法が良く用いられる。これをLDAに応用することで、逐次的にデータを学習するオンライン学習が可能になる。本発表ではこの粒子フィルタとそれをLDAに応用させた際のアルゴリズムについて理論的な面から解説を行う。
第23回(2019/1/11)
研究発表(担当:酒井)
- “Latent Dirichlet Allocation” [論文リンク][補助資料]
要旨
トピックに極性を付与したLDAの拡張である、「weakly-supervised Joint Sentiment Topic model」を実装した結果を発表する。原論文では、上記のモデルは文書毎の極性分類に用いられている。そのため抽出したトピックを紹介するとともに、ナイーブベイズ分類器との性能比較も行う。
第22回(2018/12/21)
機械学習勉強会(担当:五十嵐)
- “Latent Dirichlet Allocation(モデル、崩壊型ギブスサンプリング、実装アルゴリズム)”
要旨
多くの人が使っているLDAについて、詳細に説明します。パッケージを使う前に分かっていてほしいことを初歩から説明します。是非参加してください。
第21回(2018/12/14)
招待講演(石塚氏 東北大学OB)
- “Cost-Sensitive MedLDAによるトラウマ患者の転帰予測”
要旨
集中治療室(ICU)では、集中治療医の判断を補助する手段として、患者の転帰予測に基づく意思決定支援システムが注目されている。近年では、テキストを用いた転帰予測手法が開発されている。テキストを用いた予測手法として教師有りトピックモデル(STM)が知られるが、従来のSTMでは正例と負例の誤判別に等しくペナルティを与えて学習が行われる。患者のICU内死亡率は一般に10%程度であり不均衡データの一例である為、従来のSTMでは死亡例の検知制度が低下する恐れがある。この問題に対処する為、マージン最大化原理、コスト考慮型学習を行う教師有りトピックモデルであるCost-Sensitive MedLDAを提案する。
第20回(2018/12/07)
研究発表(担当:原田)
- “一般化傾向スコアの利用法と広告効果測定における実践” [スライド(一般化傾向スコア)]
要旨
因果推論の一手法である傾向スコアと、それを拡張した一般化傾向スコアを用いた解析法について紹介する。 また、一般化傾向スコアを用いて広告の因果効果を推定した私の研究について発表する。
第19回(2018/11/30)
研究発表(担当:酒井)
第18回(2018/11/16)
機械学習勉強会(担当:名執)
- “統計的因果探索の基礎とLiNGAMモデルの導入” [スライド]
要旨
統計的因果探索の続きです。
データを用いて因果グラフを推測するためのアプローチとして、「ノンパラメトリックアプローチ」「パラメトリックアプローチ」「セミパラメトリックアプローチ」の3つがありました。このうち、セミパラメトリックアプローチ、特に「LiNGAMアプローチ」に関しては、他の2つのアプローチと違って「因果グラフを一意に推測することが可能」だというところまで話が進んでおります。
今回の発表では、今までの話の流れを簡単に振り返ると共に、このLiNGAMモデルの紹介(特に、独立成分分析の結果を用いた、LiNGAMモデルの識別可能性の説明)を行いたいと思います。LiNGAMモデルの推定法まで詳しくご紹介できればよいのですが、この部分に関してはまだ私も充分理解できていないので、簡単に触れる程度になってしまうかもしれません。
第17回(2018/11/09)
研究発表(担当:澤谷)
- “ネットワーク分析入門” [スライド]
要旨
基本となるグラフ理論からはじめ、全学問領域に関与する「ネットワーク」の魅力を種々の研究とその成果を通じて紹介し、分析の基礎を説明する。また、個人的な応用例として哲学者の影響関係ネットワークの分析過程を紹介する。
第16回(2018/10/26)
研究発表(担当:富田)
- “LDAを用いたAmazonのレビューデータのデータマイニング” [スライド][補助資料1][補助資料2]
要旨
研究の進捗を紹介する。トピックモデルをAmazonレビューのデータに用いることによって推定されたトピック分布及び単語分布を示す。また、商品に対する5段階評価のレーティングを従属変数、トピックモデルにより得られた特徴量を独立変数とし、多重回帰分析、多項ロジスティック回帰の結果を示す。
第15回(2018/10/12)
研究発表(担当:酒井)
- “LDAによる主要ホテルチェーンの特徴抽出”
要旨
宿泊施設のレビューデータにLDAを用いることで主要なホテルチェーンのトピック割合を比較する。紹介する論文の中では、トピックモデルにより、明確に分かれた評価の次元を抽出しマッピングまで行っているが、それを再現しようとしたところ様々な問題が出てきた。その問題点と、考えている解決策を発表する。
引用予定の論文:
Tirunillai, S., & Tellis, G. J. (2014), “Mining marketing meaning from online chatter: Strategic brand analysis of big data using latent dirichlet allocation,” _Journal of Marketing Research_, 51(4), 463-479.
第14回(2018/9/21)
研究発表(担当:富田)
- “LDAを用いたAmazonのレビューデータのデータマイニング” [スライド]
要旨
以前の発表ではトピックモデルを用いた商品の評判要因分析に関する検討(月岡 et al.)の紹介と今後の私の研究の方針を紹介した。今回は実際にAmazonのレビューデータに対してLDAを用いてトピックの数やトピック上位の単語を推定した結果を示すとともに、そこから得られた特徴量(トピック分布や単語の出現確率)に対してどのような推定手法を使うか等を説明する
第13回(2018/9/14)
研究発表(担当:五十嵐)
- “トピックモデルによるネットワーク分析” [スライド]
要旨
ネットワークデータのためのトピックモデルであるMixed Membership Stochastic Blockmodelsを用いることで、Binary-Networkからトピック毎のTopic-Networkを推定し、そのネットワーク上のインフルエンサーが商品の普及に与える影響を分析する。
第11・12回(2018/8/10, 2018/8/24)
R言語勉強会
- R練習問題 [PDF][R code example]
おすすめサイト
- [R-Tips]
Rユーザー必見のサイト 躓いたらまずここに来ると良い
- [Cookbook for R]
同じくRの入門者用サイトとして非常に良くまとまっている
特にGraphsのページを読めば基本的なggplotの使い方が身に付く
- [stack overflow]
世界的に人気のあるプログラミング質問サイト
正しいキーワードで検索できればほとんどの疑問が解決する(日本語のサイトもある)
- [Qiita]
エンジニアリングに関する日本語のブログ記事が豊富にある
細かいが使えるTipsが多い
- [RjpWiki]
R版のWikipedia 非常に多様な情報が掲載されている
第10回(2018/8/3)
ポスター発表(担当:五十嵐)
- Mirai Igarashi, Nobuhiko Terui (2018) “A Topic Model Using Text Information on Social Media for Social Network Analysis” [論文] [ポスター]
要旨
From some online social medias such as Twitter and Facebook, we can obtain not only network information represents the relationships between users but also text information as user-generated-contents. In modern society that users are related to each other and their attitude towards companies change, it is one of the important marketing interests to capture the characteristics of social network by modeling this two information appropriately for many applications such as seeding strategy. In marketing fields, various models have been proposed to solve such issue, but in this research, we propose a novel approach us ing text information on social media.
Keywords:
social network analysis, topic modeling, seeding strategy
第9回(2018/7/13)
論文紹介(担当:富田)
- 宮井、西尾 (2014) “飲食サービスを利用したおもてなし消費構造の分析” [論文リンク] [資料]
要旨
スパース・モデリングという技術が様々な分野で応用されている。この手法は今あるデータのサイズが小さくても精度の良いデータ予測をしたり、今あるデータからかけている部分のデータを予測したり、応用範囲は様々ある。今回の発表ではスパース・モデリングとは何かというイントロダクションと、スパース・モデリングが用いられている論文の紹介を行う。
第8回(2018/7/6)
機械学習勉強会(担当:名執・五十嵐)
- “統計的因果探索の出発点(続き)”
- “統計的因果探索の基礎” [資料]
要旨
社会科学、こと経済学においては、回帰分析モデルが代表するように現象の因果構造を既知として、あるいは過去の文献等から因果構造を仮定して様々な議論が行われている。しかし、現実の世界では、現象の因果構造が分からず、過去の文献等も十分でない状況が存在することは想像に難くない。統計的因果探索はこのような状況においても因果構造を推定し、その後の議論に貢献するという点で大きな力を発揮する。
本発表では、『統計的因果探索』(清水2017)をベースにして統計的因果探索の基礎を説明する。ランダム化実験が可能な状況においては因果構造推定は容易であるが、現実にはランダム化実験が不可能あるいは望ましくない状況が多数存在する。このような状況においても出来る限り因果構造を推定するための手法として、「ノンパラメトリックアプローチ」「パラメトリックアプローチ」「セミパラメトリックアプローチ」の3種類を紹介し、それぞれがどのような推定を行うかを議論する。是非勉強会に参加し、経済学部では学ばない統計手法とその考え方を体感していただきたい。
第7回(2018/6/29)
機械学習勉強会(担当:名執)
- “統計的因果探索の出発点” [資料]
要旨
データから「因果関係」を推測するための機械学習技術である「統計的因果探索」について、その考え方の基礎となる部分をご紹介いたし ます(『機械学習プロフェッショナルシリーズ 統計的因果探索』の内容がベース)。
- 擬似相関
- 統計的因果推論
- 平均因果効果、ランダム化実験 など
第6回(2018/6/22)
機械学習勉強会(担当:藤島)
- “ニューラルネットワーク” [資料]
要旨
現在の深層学習の様々なモデルの下地となっているニューラルネットの基礎をご紹介させていただきます。
- 神経細胞のネットワーク
- 順伝播型ニューラルネット
- 急降下法による学習
第5回(2018/6/8)
研究紹介(担当:五十嵐)
- 澤田(2018) “音楽イベントの券売予測モデルの構築―状態空間モデルとニューラルネットワークモデル(LSTM等)との比較―” [リンク]
要旨
推定されたパラメータを解釈することによりマーケティングにおける議論が可能な状態空間モデル、解釈は出来ないが予測の精度に優れるニューラルネットワーク自己回帰モデル(NNARX)及びリカレントニューラルネットワーク(LSTM-RNN)で音楽イベントのチケット売上を予測する研究。
- 中山(2018) “重点顧客セグメントの識別とアンサンブルアルゴリズムによる特徴量の抽出” [リンク]
要旨
機械学習という応用的・解釈の難しいモデルをしようしながらも、データ分析の初心者でも扱いやすく精度を高めやすいという汎用性と、分析結果の解釈によりアクションプランの創出につなげるというデータの可読性を重視したアルゴリズムを提案した研究。
第4回(2018/6/1)
研究発表(担当:五十嵐)
- “ソーシャルメディア上のテキスト情報を考慮したインフルエンサー検出モデル” [スライド]
要旨
近年、ソーシャルメディアの発達に呼応して、人々の口コミを通じて情報の拡散を狙うバイラル・マーケティングという手法が注目を集めている。そのため、ソーシャルネットワーク上で強い影響力をもった人々(インフルエンサーと呼ばれる)を見つけ出すことはマーケティングにおいて重要な課題である。インフルエンサーの検出を目指す先行研究では、ネットワーク関係をモデル化し、ネットワーク上でバイラル・マーケティングに有用な位置を占めている人物をインフルエンサーとして定める一方で、ユーザーがどのような関心を持っているかは無視している。そこで本研究では、ソーシャルメディアから得られるデータとして、ユーザーの関心が表れる投稿情報とユーザー同士の関係性を表すリンク情報を同時に分析するモデルを提案する。この提案モデルにより、ユーザーの関心に沿った情報の拡散を狙う新たなバイラル・マーケティングが可能となる。
Twitterデータを用いた分析では、ユーザー同士のリンクごと、及びユーザーが持つ関心ごとに影響力を推定し、シミュレーション実験では、影響力が大きいほどインフルエンサーに相応しい人物であるとする仮定の下、バイラル・マーケティングと実データにおける情報拡散の速度を比較した。結果として、提案モデルを用いたバイラル・マーケティングの方が実データよりも情報をすばやくかつ多くのユーザーに拡散することが出来るとする示唆を得た。
第3回(2018/5/25)
論文紹介(担当:酒井)
- Ganu et al. (2009) “Beyond the Stars: Improving Rating Predictions using Review Text Content” [論文リンク][資料] [スライド]
要旨
インターネット上での口コミは年々その量を増すばかりです。データ量が増え、ビッグデータと言っても過言ではなくなった今こそ、テキストデータから何か知見が得られるのではないでしょうか。この度ご紹介するのは、レストランの評価サイトのテキストデータを、レコメンデーション(推薦)の精度の向上に活用した論文です。一昔前のものになってしまいますが、テキストデータをレコメンデーションに活用する先駆けとなった研究だそうです。身近なデータがどのように活用されるのか、興味がある方は是非参加をお願いします。
第2回(2018/5/18)
論文紹介(担当:富田)
- 月岡ら(2015) “トピックモデルを用いた商品の評判要因分析に関する検討” [論文リンク][資料][スライド]
要旨
- 研究テーマ
機械学習の手法を用いたECサイトのレビューデータのデータマイニング
- 研究背景
消費者に対してアンケートを取り、そこで得られる情報から商品やサービスを改善するというのは以前から行われていた。アンケート調査は対象者への負担が少ないが項目を絞る必要があり、自由記述は対象者に負担をかけるが事前に想定していなかった情報が得られる。また、アンケート・自由記述共に人的費用と実行費用が大きい。これに対してネット上のレビューデータは費用を抑えつつ大量にデータが得られ、かつ自由記述なのでこれを活用することで自社のサービスや製品のユーザビリティを高められる。
- 研究目的
機械学習の知見をマーケティングサイエンスに適用して、消費者への理解をより深める。
- 研究の対象と方法-トピックモデル
テキストデータをそのまま活用することは難しいが、テキストを形態素解析し単語の頻度分布を推定する。トピック(そこでどのような内容が話されているか)及び、単語がどのように分布しているかを分析するトピックモデルを用いれば、そのハードルを越えられる。紹介する論文は楽天のサイト上で得られたホテルに対するレビューにトピックモデルを用いて、そこのトピック分布を推定し、それらを説明変数、サービスに対する評点を被説明変数として重回帰分析を行い、ホテルのサービスに対する評価にどの要因が影響を与えているかを定量的に分析する手法を検討したものである。
- 論文・参考文献
[1] 月岡、吉川、古橋:トピックモデルを用いた商品の評判要因分析に関する検討、2015
[2] 岩田具治:トピックモデル、講談社、2015
第1回(2018/5/11)
論文紹介(担当:宮川)
- 大竹ら (2017) “EC サイトにおけるソーシャルログイン会員のサイト内行動分析―ゴルフ用品 EC サイトを対象とした会員の特徴と購買行動分析―” [論文リンク][資料]
要旨
SNS利用者数は目下年々増加しています。これを背景として、ソーシャルメディアを利用した広告・マーケティング活動が注目を集めておりますが、その一環として「ソーシャルログイン」が挙げられます。ソーシャルログインとはアカウント連携機能の一種で、ソーシャルメディア上のIDを用いて、他のサイトにログインすることを指す用語です。今回私が参加者の皆様にご紹介するのは、ソーシャルログインを利用している会員のサイト内行動が、その他の一般会員のそれとどのように異なっているかを分析した論文です。決定木分析を利用しているので、それなりに興味深く、理解しやすい結果が出ています。卒論や研究の参考になると思いますので是非ご参加ください。
第0回(2018/4/20)
論文紹介デモンストレーション(担当:五十嵐)
- Chae et al. (2017) “Spillover Effects in Seeded Word-of-Mouth Marketing Campaigns” [論文リンク][資料][スライド]
要旨
自己紹介、第1回以降の内容・日時の決定、論文紹介のデモンストレーションなど
勉強会の開催を伝える際に、Marketing Science, Journal of Marketing Research などのトップジャーナルの論文を紹介して皆で議論すると伝えましたが、どのようなイメージかを掴んでいただくために、第0回では五十嵐が担当します。↓の論文を紹介したいと思います。興味がある方は事前に読んでみてください(図書館やICTルームなどの学内回線であれば無料で見れるはずです)。もちろん読んでいなくともその場にいるだけで分かるような説明を心がけます。ご安心ください。
Chae, I., Stephen, A.T., Bart, Y., and Yao, D. (2017) “Spillover Effects in Seeded Word-of-Mouth Marketing Campaigns,” Marketing Scie nce, 36(1), 89-104.
Copyright © 2019 Mirai Igarashi All rights reserved.